大數據的處理過程一般分為4個步驟。數據採集、數據導入和數據清理、數據統計和分析以及數據挖掘應用。
今天就先介紹數據採集的部分。
常見的大數據的收集平台
(1) Apache Flume:使用JRuby構建,依賴Java運行環境。
(2) Fluentd: 使用C/JRuby開發,使用JSON文件來統一數據。
(3) Logstash:使用JRuby開發,所有運行依賴JVM。
(4) Splunk Forwarder:分為Search Head(數據的搜索和處理)、Indexer(數據的儲存和索引)和Forwarder(數據的收集、清洗、變形,並發送給Indexer)。
資料來源:https://kknews.cc/tech/l42k3g.html
https://kknews.cc/zh-tw/tech/rxj3jo.html